对于基于深度学习的语音增强(SE)系统,训练测试的声学不匹配会导致显着的性能降解。为了解决不匹配问题,已经得出了许多噪声适应策略。在本文中,我们提出了一种新颖的方法,称为“噪声自适应语音增强”,该方法具有目标条件重新采样(Nastar),该方法在目标环境中仅减少了一个样本(一次性)噪声语音的不匹配。 Nastar使用反馈机制通过噪声提取器和检索模型模拟自适应训练数据。噪声提取器估计了嘈杂语音的目标噪声,称为伪噪声。噪声检索模型根据噪音信号池从相关的语音中检索相关的噪声样品,称为相关 - 波霍特。伪噪声和相关的托架集共同采样并与源语音语料库混合,以准备模拟的训练数据以适应噪声。实验结果表明,Nastar可以有效地使用一个嘈杂的语音样本将SE模型适应目标条件。此外,噪声提取器和噪声检索模型均有助于模型适应。据我们所知,纳斯塔尔(Nastar)是第一项通过噪声提取和检索进行单发噪声适应的工作。
translated by 谷歌翻译
最近,基于深度学习(DL)的非侵入性语音评估模型引起了极大的关注。许多研究报告说,这些基于DL的模型产生令人满意的评估性能和良好的灵活性,但是它们在看不见的环境中的性能仍然是一个挑战。此外,与质量分数相比,更少的研究详细阐述了深度学习模型以估计可理解性得分。这项研究提出了一个多任务语音可理解性预测模型,称为MTI-NET,用于同时预测人类和机器的可理解性度量。具体而言,鉴于语音话语,MTI-NET旨在预测人类的主观听力测试结果和单词错误率(WER)分数。我们还研究了几种可以改善MTI-NET预测性能的方法。首先,我们比较不同功能(包括自我监督学习(SSL)模型的低级功能和嵌入)和MTI-NET的预测目标。其次,我们探讨了转移学习和多任务学习对培训MTI-NET的影响。最后,我们研究了微调SSL嵌入的潜在优势。实验结果证明了使用跨域特征,多任务学习和微调SSL嵌入的有效性。此外,已经证实,MTI-NET预测的可理解性和WER得分与地面真实分数高度相关。
translated by 谷歌翻译
提高用户在嘈杂环境中理解语音的听力能力对于助听器设备的开发至关重要。为此,得出一个可以公平地预测HA用户语音清晰度的度量标准很重要。一种直接的方法是进行主观听力测试,并将测试结果用作评估度量。但是,进行大规模的听力测试是耗时且昂贵的。因此,将几个评估指标得出作为主观听力测试结果的替代物。在这项研究中,我们提出了一个多支链的语音可理解性预测模型(MBI-NET),以预测HA用户的主观可理解性评分。 MBI-NET由两个模型分支组成,每个分支由听力损失模型,跨域特征提取模块和语音可理解性预测模型组成,以从一个通道处理语音信号。两个分支的输出通过线性层融合,以获得预测的语音清晰度得分。实验结果证实了MBI-NET的有效性,MBI-NET的有效性比轨道1中的基线系统和轨道2在Clarity Preditation Challenge挑战2022数据集中产生的预测分数更高。
translated by 谷歌翻译
由于语音分离的表现非常适合两个说话者完全重叠的语音,因此研究的注意力已转移到处理更现实的场景。然而,由于因素,例如说话者,内容,渠道和环境等因素引起的训练/测试情况之间的领域不匹配仍然是言语分离的严重问题。演讲者和环境不匹配已在现有文献中进行了研究。然而,关于语音内容和渠道不匹配的研究很少。此外,这些研究中语言和渠道的影响大多是纠结的。在这项研究中,我们为各种实验创建了几个数据集。结果表明,与不同渠道的影响相比,不同语言的影响足以忽略。在我们的实验中,Android手机记录的数据培训可提供最佳的概括性。此外,我们通过评估投影提供了一种新的解决方案,以测量通道相似性并用于有效选择其他训练数据以提高野外测试数据的性能。
translated by 谷歌翻译
通道不匹配和噪声干扰的补偿对于强大的自动语音识别至关重要。增强的语音已引入声学模型的多条件训练中,以提高其概括能力。在本文中,提出了一个基于两个级联神经结构的噪音感知训练框架,以共同优化语音增强和语音识别。功能增强模块由多任务自动编码器组成,嘈杂的语音被分解为干净的语音和噪声。通过将其增强的,吸引噪音的和嘈杂的特征连接起来,通过优化预测的无晶格最大互信息和预测状态序列之间的无晶格最大互助和交叉熵,声音模块将每个特征型仪表型映射到Triphone状态。除了分解时间延迟神经网络(TDNN-F)及其卷积变体(CNN-TDNNF),均具有Specaug,两个提议的系统的单词错误率(WER)分别为3.90%和3.55% Aurora-4任务。与使用BigRAM和Trigram语言模型进行解码的最佳现有系统相比,拟议的基于CNN-TDNNF的系统的相对降低分别为15.20%和33.53%。此外,提出的基于CNN-TDNNF的系统还优于AMI任务上的基线CNN-TDNNF系统。
translated by 谷歌翻译
在我们以前的工作中,我们提出了一个歧视性自动编码器(DCAE)进行语音识别。 DCAE将两个训练方案结合在一起。首先,由于DCAE的目标是学习编码器映射,因此重建语音和输入语音之间的平方误差被最小化。其次,在代码层中,基于框架的语音嵌入是通过最小化地面真相标签和预测的Triphone-State分数之间的分类跨熵来获得的。 DCAE是根据Kaldi工具包开发的,通过将各种TDNN模型视为编码器。在本文中,我们进一步提出了三个新版本的DCAE。首先,使用了一个新的目标函数,该函数使用了地面真相和预测的Triphone-State序列之间的分类跨膜和相互信息。所得的DCAE称为基于链的DCAE(C-DCAE)。为了应用于强大的语音识别,我们将C-DCAE进一步扩展到层次结构和平行结构,从而导致HC-DCAE和PC-DCAE。在这两个模型中,重建的嘈杂语音与输入嘈杂语音以及增强语音和参考清洁语音之间的误差之间的误差都归功于目标函数。 WSJ和Aurora-4 Corpora的实验结果表明,我们的DCAE模型优于基线系统。
translated by 谷歌翻译
无需清洁参考,非侵入式语音评估方法对客观评估引起了很大的关注。最近,已经应用了深度神经网络(DNN)模型来构建非侵入式语音评估方法并确认提供了有希望的性能。但是,基于DNN的大多数方法都是针对正常听力侦听者设计的,而不考虑听力损失因素。在本研究中,我们提出了一种由双向长期内存(BLSTM)模型形成的DNN的助听器语音评估网络(HASA-Net),以根据输入语音信号和指定的同时预测语音质量和可懂度分数听力损失模式。据我们所知,Hasa-net是利用统一的DNN的非侵入性模型来融入质量和可智能性评估的第一项工作。实验结果表明,HASA-NET的预测语音质量和可智能性评分与两个公知的侵入性助听剂评估指标高度相关,助听器语音质量指数(HASQI)和助听器语音感知指数(HASPI)。
translated by 谷歌翻译
在这项研究中,我们提出了一种跨域多目标语音评估模型,即MOSA-net,可以同时估算多个语音评估度量。更具体地,MOSA-Net旨在基于作为输入的测试语音信号来估计语音质量,可懂度和失真评估分数。它包括用于表示提取的卷积神经网络和双向长短期存储器(CNN-BLSTM)架构,以及每个评估度量的乘法注意层和完全连接的层。此外,来自自我监督学习模型的跨域特征(光谱和时域特征)和潜在的表示用作将丰富的声学信息与不同语音表示相结合的输入,以获得更准确的评估。实验结果表明,MOSA-Net可以精确地预测语音质量(PESQ),短时间客观可懂度(STOI)和语音失真指数(SDI)分数的感知评估,并且在噪声下进行了测试,并且在任何看法测试下都有增强的语音话语条件(测试扬声器和训练集中涉及的噪音类型)或看不见的测试条件(其中测试扬声器和噪声类型不参与训练集)。鉴于确认的预测能力,我们进一步采用了MOSA网的潜在表示来引导语音增强(SE)过程,并导出了质量清晰度(QI)-AWARE SE(QIA-SE)方法。实验结果表明,与客观评估指标和定性评估测试相比,QIA-SE与基线SE系统相比提供了卓越的增强性能。
translated by 谷歌翻译
In this paper, we propose a robust 3D detector, named Cross Modal Transformer (CMT), for end-to-end 3D multi-modal detection. Without explicit view transformation, CMT takes the image and point clouds tokens as inputs and directly outputs accurate 3D bounding boxes. The spatial alignment of multi-modal tokens is performed implicitly, by encoding the 3D points into multi-modal features. The core design of CMT is quite simple while its performance is impressive. CMT obtains 73.0% NDS on nuScenes benchmark. Moreover, CMT has a strong robustness even if the LiDAR is missing. Code will be released at https://github.com/junjie18/CMT.
translated by 谷歌翻译
Knowledge graphs (KG) have served as the key component of various natural language processing applications. Commonsense knowledge graphs (CKG) are a special type of KG, where entities and relations are composed of free-form text. However, previous works in KG completion and CKG completion suffer from long-tail relations and newly-added relations which do not have many know triples for training. In light of this, few-shot KG completion (FKGC), which requires the strengths of graph representation learning and few-shot learning, has been proposed to challenge the problem of limited annotated data. In this paper, we comprehensively survey previous attempts on such tasks in the form of a series of methods and applications. Specifically, we first introduce FKGC challenges, commonly used KGs, and CKGs. Then we systematically categorize and summarize existing works in terms of the type of KGs and the methods. Finally, we present applications of FKGC models on prediction tasks in different areas and share our thoughts on future research directions of FKGC.
translated by 谷歌翻译